AI

머신러닝_05_시계열과 파생 지표

작성자 : Heehyeon Yoo|2026-03-17
# 머신러닝# 시계열데이터# 파생지표# 롤링윈도우# 자기상관

1. 순서가 먼저인 데이터

표 형식 데이터와 시계열 데이터의 가장 큰 차이는 행의 순서가 의미를 가지느냐에 있다. 일반적인 테이블 데이터에서는 행을 섞어도 의미가 크게 변하지 않지만, 시계열 데이터는 시간 순서가 깨지는 순간 데이터의 구조도 함께 무너진다.

시계열은 단순히 시간이 붙은 데이터가 아니다. 각 시점의 값이 독립적이지 않고, 이전 상태와 이후 상태가 서로 영향을 주는 데이터다. 오늘의 주가가 어제와 완전히 무관하지 않고, 지금의 호흡수나 트래픽이 직전 구간과 느슨하게라도 연결되는 이유가 여기에 있다.

그래서 시계열을 다룬다는 말은 값 자체를 보는 것에서 끝나지 않는다. 값의 수준, 흐름, 반복성, 흔들림, 시차를 둔 상관관계까지 함께 읽는다는 뜻에 가깝다.

2. 추세, 계절성, 변동성, 자기상관

추세는 장기적으로 값이 어느 방향으로 이동하는지를 보여준다. 계절성은 일정 주기로 반복되는 구조를 뜻한다. 변동성은 값이 평균 수준을 중심으로 얼마나 크게 흔들리는지를 보여준다. 자기상관은 현재 값이 과거 값과 얼마나 닮아 있는지를 측정한다.

이 네 요소는 서로 완전히 분리되지 않는다. 장기 상승 추세 위에 짧은 주기성이 얹힐 수도 있고, 평균 수준은 유지되는데 변동성만 커질 수도 있다. 그래서 시계열을 해석할 때는 "값이 높다"보다 "어떤 구조로 움직이고 있는가"를 보는 편이 더 유용하다.

특히 자기상관은 시계열이 일반 회귀 데이터와 다른 이유를 잘 보여준다. 시계열에서는 직전 구간의 정보가 현재를 설명하는 경우가 많다. 이는 곧 관측값이 독립 동일 분포 가정에 잘 맞지 않는 경우가 많다는 뜻이기도 하다. 시계열용 전처리나 모델링이 따로 논의되는 이유도 여기서 나온다.

3. 원시값과 구조

시계열 데이터는 보통 측정 주기가 촘촘할수록 정보가 많아 보인다. 하지만 해석 단계에서는 오히려 너무 많은 순간값이 구조를 가린다. 단일 시점의 관측값은 일시적 노이즈, 측정 오차, 짧은 스파이크에 지나치게 민감하다.

그래서 실제 분석에서는 원시값을 곧바로 쓰기보다 파생 지표를 만든다. 파생 지표는 값을 버리는 것이 아니라, 값의 흐름에서 더 안정적인 구조를 끌어내는 과정이다. 원시 시계열이 현상을 촘촘하게 기록한다면, 파생 지표는 그 기록을 해석 가능한 단위로 재구성한다.

여기서 갈리는 것은 데이터 양이 아니라 표현 수준이다. 원시값은 측정에 가깝고, 파생 지표는 해석에 가깝다.

4. 롤링 윈도우와 파생 특징

파생 지표를 만들 때 가장 자주 쓰이는 도구가 롤링 윈도우다. 특정 시점 하나만 보지 않고 최근 k개 구간을 함께 묶어 그 구간의 요약 통계를 계산하는 방식이다.

이 과정에서 이동 평균은 짧은 잡음을 누르고 현재 수준을 부드럽게 보여준다. 이동 분산이나 이동 표준편차는 해당 구간이 안정적인지, 변동성이 큰지를 드러낸다. 차분은 인접 시점 간 변화량을 계산해 추세 변화나 급격한 이동을 더 또렷하게 만든다.

이 지점이 중요하다. 이동 평균은 수준을, 이동 분산은 불안정성을, 차분은 변화 속도를 보여준다. 즉 같은 시계열이라도 어떤 파생 지표를 고르느냐에 따라 드러나는 구조가 달라진다. 파생 지표는 단순한 계산 부가물이 아니라, 시계열을 어떤 관점으로 읽을지 정하는 표현 설계에 가깝다.

5. 입력 특징과 상태 표현

파생 지표의 쓰임은 하나로 고정되지 않는다. 어떤 경우에는 예측 모델의 입력 특징이 되고, 어떤 경우에는 시계열의 상태를 설명하는 해석 단위가 된다. 예를 들어 최근 평균, 최근 변동성, 누적 변화량 같은 값은 회귀나 분류 모델의 입력으로도 쓸 수 있고, 상태를 구분하는 특징으로도 쓸 수 있다.

다만 최근 흐름은 여기서 한 걸음 더 나간다. 예전에는 시계열 표현을 롤링 평균, 차분, 변동성 같은 손으로 만든 특징에 많이 의존했다. 지금은 그 위에 표현 학습이 빠르게 붙고 있다. 긴 시계열에서 반복 구조를 직접 학습하고, 그 결과를 다운스트림 태스크에 다시 쓰는 방식이다. 그렇다고 파생 지표가 곧바로 낡은 건 아니다. 여전히 해석하기 쉽고, 적은 데이터에서도 잘 버티며, 상태를 설명하는 데 강하다. 실제로는 손으로 만든 특징과 학습된 표현이 같이 쓰이는 구간이 더 많다.

결국 시계열 분석에서 중요한 것은 "무슨 값을 측정했는가"보다 "그 값을 어떤 시간 단위와 어떤 요약 방식으로 표현할 것인가"에 있다. 시계열의 정보는 단일 숫자에 들어 있지 않고, 시간 구간과 변화 패턴 속에 분산되어 있기 때문이다.

참고 자료